04. 练习:知识测验
练习:知识测验

玩象棋
假设你是一个智能体,你的目标是玩象棋。在每个时间步,你都从游戏中的一组可能的走法中选择任何一个动作。你的对手是环境的一部分;你以自己的走法做出回应,你在下个时间步收到的状态是当你选择下个走法时棋盘的布局。奖励仅在游戏结束时获得,假设如果你获胜了,奖励为 1,失败了,奖励为 -1。
这是一个阶段性任务,当游戏结束时,一个阶段结束。原理是通过玩该游戏很多次,或通过与该环境互动很多个阶段,你越来越善于玩象棋。
需要注意的是,这个问题非常难,因为只有游戏结束时才会获得反馈。如果你失败了(并在阶段结束时获得奖励 -1),不清楚你到底何时出错了:或许你玩的很差,每步都出错了,或者你大部分时间都玩的很好,只是在结束时犯了一个小小的错误。
在这种情形下,奖励提供的信息非常少,我们称这种任务存在稀疏奖励问题。这是一个专门的研究领域,如果感兴趣的话,建议你详细了解一下。
玩象棋
SOLUTION:
移动棋子SOLUTION:
- 棋盘布局
SOLUTION:
0
逃脱迷宫
假设有这样一款游戏:智能体位于一个迷宫中,尝试找到抵达目的地的最快路径。如果智能体只能随机地探索迷宫,在至少抵达目的地一次之前,它将学不到任何规律。
探索迷宫